Validation des Modèles PRIDEC
Variables Explicatives
Importance des variables
Nous avons calculé l’importance de chaque variable. Une valeur d’importance plus grande veut dire que la variable est plus importante pour la capacité prédictive du modèle. La sommation de toutes les valeurs d’importance égal 1. Une valeur de zéro veut dire que cette variable n’influence pas les prédictions dans ce modèle.
À noter: La modèle de base inclut seulement les variables de unité organisationelle et mois de l'année.
Association avec des variables explicatives
Nous pouvons également explorer les associations de chaque variable avec le nombre de cas au moyen de graphiques contrefactuels.
Les figures ci-dessous montrent l’association de chaque variable avec le nombre de cas (l’effet marginal moyen). L’axe horizontal (x) correspond aux valeurs des variables et l’axe vertical (y) représente le nombre moyen de cas pour cette valeur de la variable, en supposant que toutes les autres variables du modèle restent constantes. C’est ce qu’on appelle l’effet marginal au moyen.
En général, une pente plus raide signifie une association plus forte, tandis qu’une ligne essentiellement plate correspond à une association plus faible. Certains modèles ont également des associations qui ne sont pas linéaires et les lignes seront courbées.
Exactitude
Nous estimons l’exactitude du modèle en évaluant sa capacité de predire les données historiques.
Erreur Moyenne : Nous avons calculé la moyenne de la différence residuèlle entre le nombre de cas prédit et le nombre de cas réel mensuel par orgUnit. Par exemple, un erreur de 10 veut dire que, en generale, il y a une difference de 10 cas entre le nombre de cas prédit et le vrai nombre de cas vus par mois dans un orgUnit.
R2 : Nous pouvons calculer le carré de la corrélation (r-carré) entre les prédictions et le nombre réel de cas mensuel par orgUnit (R2, r-carré). Cette valeur est comprise entre 0 et 1, 1 correspondant à une corrélation parfaite et 0 à la plus mauvaise corrélation. Il n’existe pas de seuil strict pour une « bonne » valeur de r-carré. En général, un modèle prédictif bien adapté aura une valeur supérieure à 0.4.
Sur- et sous-estimation : Nous avons estimé la pourcentage des mois avec un prédiction qui sur-estime ou sous-estime le vrai nombre de cas dans un orgUnit. En général, un modèle performant aura les deux valeurs qui s’approche à 0.5.
| model | Pourc.SurEstime | Pourc.SousEstime | Erreur.moyenne | R.carre |
|---|---|---|---|---|
| ARIMA | 0.4360780 | 0.5639220 | 49.53162 | 0.4372863 |
| GLM | 0.1179563 | 0.8787368 | 53.23958 | 0.6158577 |
| INLA | 0.2338294 | 0.7529431 | 45.65466 | 0.5769536 |
| NAIVE | 0.1729497 | 0.8270503 | 48.46648 | 0.5150946 |
| RANGER | 0.3283069 | 0.6452381 | 41.63819 | 0.5229548 |
Courbes de Tendances
Nous pouvons visualiser les nombres de cas predits par rapport aux nombres de cas réels au niveau du orgUnit. Le nombre réel de cas est représenté par des points et le nombre prédit de cas est représenté par la ligne. La ligne ombrée est l’intervalle de prediction à 95 %: nous sommes à 95% sur que le vrai valeur tombe dans cette zone coloré.
These plots represent the retrospective predictions at the full horizon (3 months).
Cartes
Les cartes ci-dessous montrent le nombre de cas annuel pour les orgUnit pour les deux dernières années (2023, 2024). Les zones administratives présentant des taux de cas exceptionnellement élevés sont appelées « hot spots ». Vous pouvez comparer les « hot spots » dans les données réelles et les prévisions.
Comment utiliser ce document?
Ce document fournit des informations sur la performance des modèles statistiques utilisées pour prédire . Il fournit des informations sur cinq modèles statistiques (selon le choix de l’utilisateur):
BASE
Le modèle de base est basé sur la moyenne des cinq dernières années pour chaque mois de l’année. Par exemple, la prévision pour décembre 2024 est égale au nombre moyen de cas pour cet unité organisationelle au mois de décembre entre 2018 et 2023. L’intervalle de prédiction correspond au minimum et au maximum au cours de cette période de cinq ans. Ny maodely fototra dia mifototra amin’ny salan’isan’ny dimy taona farany ho an’ny isam-bolana amin’ny taona. Ohatra, ny vinavina ho an’ny volana desambra 2024 dia mitovy amin’ny salan’isan’ny tranga ho an’ity tobim-pahasalamana ity tamin’ny volana desambra teo anelanelan’ny taona 2018 sy 2023. Ny elanelana vinavina dia mifanandrify amin’ny kely indrindra sy ambony indrindra mandritra io fe-potoana dimy taona io.
Avantages : Il s’agit du modèle le plus basique, facile à utiliser et à comprendre.
Tombontsoa : Ity no môdely fototra indrindra, mora ampiasaina sy azo.
Inconvénients : Parce qu’il ne contient aucune variable climatique, environnementale ou sociale, ce n’est pas toujours un modèle exacte ni précis.
Fatiantoka : Satria tsy misy ny fiovan’ny toetr’andro, ny tontolo iainana na ny fiaraha-monina, dia tsy modely mazava na mazava foana izy io.
ARIMA
Un modèle ARIMA est conçu spécifiquement pour la modélisation de données de séries chronologiques. Il combine les tendances des données historiques avec une moyenne mobile des données pour prévoir l’avenir. Ny maodely ARIMA dia natao manokana hanaovana modely ny angona andiam-potoana. Izy io dia manambatra ny fironana angona ara-tantara miaraka amin’ny salan’isa mihetsiketsika mba haminavina ny ho avy.
Avantages : Il est très précis pour les données de séries chronologiques et peut tenir compte des tendances historiques à long et à court terme.
Tombontsoa : Tena marina izy io amin’ny angon-drakitra andiam-potoana ary afaka mitantana ny fironana ara-tantara maharitra sy fohy.
Inconvénients : Il ne peut modéliser qu’une seule unité organisationalle (CSB, fokontany) à la fois, ce qui signifie qu’il ne peut pas partager d’informations entre les unités organisationnelles. Il est également peu performant si le nombre de cas est faible (< 50).
Fatiantoka : CSB na fokontany iray ihany no azo atao modely amin’ny fotoana iray, izany hoe tsy afaka mifampizara vaovao eo amin’ny sampana fikambanana. Tsy mahomby raha ambany ny isan’ny tranga (<50).
GLM
Un modèle GLM est une régression linéaire de base qui prend en compte l’identité individuelle des unités organisationnelles ainsi que la moyenne de chaque mois de l’année. Ny maodelin’ny GLM dia fihemorana tsipika fototra izay mandinika ny maha-isan’ny vondrona fikambanana ary koa ny salan’isa isam-bolana amin’ny taona.
Avantages : Il est précis même lorsque le nombre de cas est faible (<50) et peut être créé très rapidement.
Tombontsoa: Marina izany na dia kely aza ny isan’ny tranga (<50) ary azo noforonina haingana dia haingana.
Inconvénients : Il ne tient pas compte des tendances spatiales sous-jacentes dans les données et ne peut pas modéliser directement la saisonnalité.
Fatiantoka : Tsy mitanisa ny fironana ara-potoana ao anatin’ny angon-drakitra ary tsy afaka manao modely mivantana ny vanim-potoana.
INLA
Le modèle INLA est basé sur le modèle GLM mais contient une structure supplémentaire pour tenir compte de la saisonnalité annuelle et de la structure spatiale des données. Cela signifie que les prévisions apparaîtront plus lisses que dans d’autres modèles et que les valeurs des unités organisationnelles proches les unes des autres seront similaires.
Ny maodely INLA dia mifototra amin’ny maodely GLM saingy misy rafitra fanampiny hijerena ny vanim-potoana isan-taona sy ny firafitry ny angon-drakitra. Midika izany fa hiseho malefaka kokoa noho ny amin’ny modely hafa ny vinavina ary hitovy ny soatoavin’ny vondrona fikambanana mifanakaiky.
Avantage: L’inclusion de la saisonnalité et de la structure spatiale peut rendre le modèle plus précis, si cela représente la réalité. Le modèle peut également inclure des associations non linéaires avec des variables.
Tombontsoa : Ny fampidirana ny vanim-potoana sy ny firafitry ny habakabaka dia mety hahatonga ny modely ho marina kokoa, raha toa ka maneho ny zava-misy izany. Ny modely dia mety ahitana fikambanana tsy an-dalana miaraka amin’ny variables.
Inconvénients : Le modèle devient moins précis et fiable si des données manquent. Il nécessite un ordinateur puissant pour fonctionner.
Fatiantoka : Lasa tsy dia marina sy azo itokisana ny modely raha tsy misy angona. Mitaky solosaina mahery vaika izy io.
RF (Ranger)
Un modèle forêt aléatoire (ou Random Forest) est une méthode d’apprentissage automatique utilisée pour faire des prédictions. Il combine des milliers de modèles simples pour créer ses prédictions. Imagine que tu dois prendre une décision, mais au lieu de le faire seul, tu demandes à plusieurs de tes amis. Chacun de tes amis a une opinion différente, mais la majorité des opinions te donnera probablement la meilleure réponse.
Ny maodely Random Forest dia fomba fianarana milina ampiasaina hanaovana faminaniana. Manambatra modely tsotra an’arivony izy io mba hamoronana ny faminaniany.
Avantage : Un modèle RF est souvent plus précis dans ses prévisions que d’autres modèles, car il utilise de nombreux modèles pour réduire les erreurs. Il peut inclure des associations non linéaires et est très rapide à créer.
Tombontsoa : Ny modely RF dia mampiasa modely maro mba hampihenana ny lesoka. Mety ahitana fikambanana tsy misy tsipika izy io ary haingana be ny famoronana.
Inconvénients : Comme il ne tient pas directement compte de la saisonnalité, il ne permet pas de prévoir aussi bien les séries chronologiques. Il est également parfois plus difficile de comprendre les paramètres du modèle qu’un modèle de régression.
Fatiantoka : Tsy maminavina ny fizaran-potoana koa izy io. Sarotra kokoa ny mahatakatra ny mari-pamantarana modely noho ny modely regression.
Pour évaluer des modèles vous-même, explorez les différentes sections à l’aide de la barre de navigation située sur le côté. Celles-ci contiennent des informations sur :